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摘 要 : 针对 采用 单 CPU CT 图 像 重 建 时 间 长 ， 采 用 CPU 集群 重建 成 本 及 能 耗 高 的 问题 ， 提 出 了 CPU 多 线程 HGPU 
的 异 构 重 建 模型 。 这 种 模型 采用 CPU 多 线程 流水 线 模式 ， 将 整个 任务 分 解 为 若干 个 处 理 阶 段 ， 相 邻 的 两 个 阶段 之 间 
以 循环 缓存 连接 ， 上 一 阶段 完成 一 次 计算 任务 后 将 数据 放 到 循环 缓存 里 ， 然 后 继续 下 一 次 的 计算 任务 ， 下 一 阶段 探测 
到 循环 缓存 里 有 数据 后 ， 从 缓存 里 取出 数据 开始 计算 。 各 个 任务 是 并 行 处 理 任 务 的 ， 针 对 某 一 耗 时 瓶颈 模块 再 采用 
GPU 并 行 加 速 ， 充 分 发 挥 CPU 和 GPU 的 计算 资源 。CPU 多 线程 +GPU 模型 相对 于 CPU 多 线程 模型 加 速 16.45 倍 ， 相 
对 于 串 行 CT 图 像 重建 加 速 20.5 倍 以 上 。 将 CPU 多 线程 +GPU 模型 重建 的 图 像 与 CPU 串 行 程序 重建 的 CT 图 像 相 比 
较 ， 数 据 结果 在 误差 范围 内 ， 满 足 实 验 设计 要 求 。 提 出 的 图 像 重 建 模型 采用 成 本 较 低 的 GPU 显卡 就 实现 了 性 能 大 幅 
提升 ， 大 大 降低 了 CT 图 像 重 建 系统 的 成 本 及 功 耗 ， 而 成 本 及 功 耗 的 降低 会 引起 CT 医疗 诊断 费用 的 降低 ， 最 终 惠及 
广大 病 患 。 

关键 词 : GPU; CT 图 像 重建 ; 流水 线 

中 图 分 类 号 : TP391 doi: 10.3969/i.issn.1001-3695.2017.12.0859 


Research on real-time computed tomographic reconstruction system 
based on GPU heterogeneous platform 


Xia Songzhu!'', Yang Jingl, Fang Baohui!, Xu Jinxiu? 
(1. College of Computer Science & Technology, Harbin Engineering University, Harbin 150000, China; 2. Jiangnan Institute 
of Computing Technology, Wuxi Jiangsu 214083, China) 


Abstract: In order to solve long time consuming problems of single CPU computed tomographic reconstruction and the 
problems of high cost and high energy consumption in the reconstruction using CPU cluster, this paper proposed a 
heterogeneous reconstruction model of CPU multithreads +GPU .This model used the CPU multithread pipelining pattern, it 
divided the whole task into several stages, and it connected each two adjacent phases by a loop buffer. Once the calculation 
of the current task stage completes, the data would be put into the loop buffer, and then the next computing task would continue 
to execute. When the data in the loop buffers was detected by the latter stage, the data would be removed from the loop buffers 
and calculated. In this way, each thread processes tasks in a parallel way. For a time consuming bottleneck module, the parallel 
acceleration of GPU was adopted to give full play to the computing resources of CPU and GPU. The CPU multithreads +GPU 
model is 16.45 times faster than the CPU multithreaded model, and accelerates more than 20.5 times faster than serial CT 
image reconstruction. By comparing with experimental results of CPU serial program, the result of the CPU multithreads 
+GPU model can meet the experimental design requirement in the range of error tolerance. The image reconstruction model 
proposed by using low cost GPU has greatly enhanced performance, greatly reduces the cost and power consumption of the 
CT system . The reduction in cost and power consumption will lead to a reduction in the cost of CT medical diagnosis, which 
will eventually benefit patients. 
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0 引言 


CT (computed tomography) 是 指 计 算 机 断层 重建 技术 
现在 已 经 是 医学 诊断 不 可 或 缺 的 一 种 手段 mI。CT 图 像 重 建 


了 


有 计算 量 大 、 计 算 密 集 、 


两 种 方法 ， 一 是 减少 


集 、 高 可 并 行 等 特点 ， 医 疗 诊断 
像 的 成 像 速度 有 较 高 的 要 求 。 现 在 加 速 CT 图 像 重建 的 主要 有 
图 


旭 像 重建 过 程 中 的 浮 点 计算 量 ， 二 是 


处 理 图 像 重 建 过 程 。 前 者 是 通过 巧妙 设计 优化 现 有 算法 ， 后 
利用 高 性 能 计算 平台 ， 提 升 运算 速度 站。GPU 


对 CT 


图 
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w,h 重建 图 像 的 宽度 和 高 度 
VC 影 View 数 ， 以 及 View 中 的 通道 数 


重建 图 像 ， 尺 寸 为 wth 的 数组 ， 数 组 中 各 点 的 值 代表 了 感 
兴趣 区 域内 各 点 的 CT 值 。 实 现 反 投影 的 过 程 其 实 是 一 个 逆向 
首先 是 图 像 坐标 下 各 个 像素 点 与 图 像 中 心 的 相对 坐标 


有 计算 核心 


计算 能 力 强 ， 被 越 来 越 多 的 应 ) 


在 


图形 处 理 之 儿 


的 通用 计 入 


GPU 在 通 | 


可 以 大 幅 减 少 CT 成 本 。 


的 ， 充 分 利 
用 GPU 进一步 加 速 。 


本 文 的 整体 软件 框架 采 | 
线 模式 ， 将 整个 任务 分 解 为 若干 个 处 理 阶段 ， 各 个 任务 是 
] CPU 资源 ， 然 后 针对 耗 时 长 的 瓶颈 模块 ， 青 


功 耗 小 的 优势 
多 线程 流 


1 CT 原理 
根据 朗 伯 定 律 ,一 单 色 X 线束 通过 一 密度 均匀 原子 序数 
匀 的 小 物体 时 ， 其 能 量 因 与 物质 的 原子 相互 作用 而 减弱 % 
减弱 的 程度 可 用 下 式 表达 : 
1= loe™ud 

其 中 : 石 为 入 射 的 X 射线 强度 ; 

I 为 穿 过 物体 后 的 X 射线 强度 ; 
u 为 物质 对 该 波长 的 线性 衰减 系数 ; d 为 穿 


均匀 密度 物体 的 路 径 长 度 ; 
e 为 自然 对 数 底 。 


当 高 度 准 直 的 X 射线 束 环绕 人 体 某 一 部 位 作 断 面 扫描 时 
其 中 一 部 分 光子 被 人 体 组 织 吸 收 ，X 射线 强度 衰减 ， 未 被 吸收 


的 剩余 光子 穿 透 人 体 后 ， 被 检测 器 接收 ， 然 后 经 放大 
有 E 子 流 ， 作 为 原始 的 模拟 信号 数据 输入 到 计算 机 进行 运算 


转化 


行 
者 


多 、 
D]。 
计算 的 普及 可 以 使 个 人 计算 机 获得 大 规模 集群 才 
能 提供 的 计算 能 力 ， 而 且 GPU 具有 成 本 低 、 


? 


水 
行 


均 


了 


岩 


» 


为 


重建 生成 图 像 ， 然 后 将 重建 图 像 传 给 显示 设备 显示 ， 供 


处 至 


断 用 站。 

反 投影 过 程 是 将 滤波 后 的 投影 数据 累加 到 输出 图 像 中 ， 通 
过 不 同 角度 下 多 次 的 又 加 来 实现 反 投影 ”。 反 投影 重建 过 程 简 
介 如 下 。 
输入 : 

反 投 影 重 建 输入 参数 如 表 1 所 示 。 

表 1 反 投影 重建 输入 参数 
Prodata 滤波 后 的 投影 数据 
Rs 射线 源 到 旋转 中 心 的 距离 
Rd 探测 器 到 射线 焦点 的 距离 
wd 沿 着 XX 方向 的 探测 器 宽度 
cen det 探测 器 中 心 位 置 
FOV 感 兴趣 区 域 尺 寸 
Xo yo 感 兴趣 区 域 中 心 相对 于 旋转 中 心 的 位 置 偏 移 


位 置 ， 如 图 1 所 示 。 需 要 注意 的 是 ， 在 图 像 坐标 系 中 Y 轴 向 下 
正 ; 可 计算 出 图 中 点 (x,,y) 在 该 坐标 系 下 与 图 像 中 心 的 相 
对 位 置 ， 单 位 为 像素 。 


图 1 重建 图 像 坐标 系 

此 时 的 重建 图 像 为 投影 坐标 下 的 一 个 FOV (图 2) ， 可 根 
据 图 像 像素 尺寸 与 FOV 空间 距离 之 间 建 立 对 应 关系 ， 将 像素 关 
系 转 为 空间 距离 关系 比例 为 scale。 


+ 


W/ 
tt%ya ) 


到 2”FOV 中 心 及 平行 投影 示意 图 
在 投影 坐标 下 ， 经 过 旋转 中 心 的 射线 在 探测 器 上 的 投影 位 
置 为 cen_det。 而 FOV 的 中 心 与 旋转 中 心 存在 位 置 的 偏 移 ， 偏 
移 量 为 (xo,yo)。 根 据 像 素 - 距 离 对 应 关系 以 及 中 心 偏 移 量 ， 
可 以 通过 以 下 公式 计算 出 像素 中 的 各 点 与 旋转 中 心 在 空间 的 相 
对 距离 。 
(x,y) = scale * [—(centerX, centerY)] + (xo, yo) 
得 到 了 (x，y) 之 后 ， 可 以 通过 以 下 公式 计算 出 该 点 在 探 
测 器 上 的 投影 与 旋转 中 心 投影 cen_det 的 相对 距离 。 
t(x,y, 90) =ycos0—xsin0 
由 于 在 探测 器 上 的 投影 位 置 cen_det 十 t(x,y, 9 ) 未 必 是 整 
数 ， 需 要 根据 其 位 置 进行 线性 插值 得 到 投影 值 ， 然 后 将 投影 值 
累加 到 图 像 中 对 应 的 像素 ， 并 乘 上 系数 x /JV; 最 后 将 投影 值 
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转换 为 CT 值 ， 单 位 为 HU。 


CT = 1000 *— “#20 
Hn20 

2 ”实时 CT 系统 实现 
2.1 CT 系统 架构 

如 图 3 所 示 ，CT 系统 的 软件 主要 由 三 大 部 分 组 成 ， 分 别 
是 扫描 控制 系统 、 用 户 接口 、 图 像 重 建 系统 。 扫 描 控 制 系统 主 
要 负责 扫描 床 、 机 架 的 运动 控制 ， 用 户 接口 是 CT 系统 与 用 户 
交互 的 接口 ， 图 像 重 建 系统 负责 对 探测 器 采集 的 数据 进行 图 像 
的 重建 。 图 像 重 建 系统 是 本 文 的 关注 点 ， 扫 描 控制 系统 和 用 户 
接口 不 作 详 述 。 

旋转/ /人 


2 政 固 源 


夏 松竹 ， 等 : 基于 GPU 异 构 平 


四 3 CT 系统 
流水 线 图 像 重 建 系统 


2.2 


本 文 设 计 的 CT 系统 图 像 重建 系统 采用 
图 像 处 理 器 〈GPU) 的 异 构 混合 加 速 模型 。 多 线程 采 月 
线程 设计 模式 中 的 流水 线 模 式 ， 首 先 将 CT 


为 若干 个 处 理 阶段 ， 


作 基 


的 实时 CT 图像 重 建 系统 的 研究 


的 是 CPU 


上 一 个 阶段 任务 的 运算 结 


区 


像 重 


zx 
人 


多 线程 加 
有 的 是 多 
建 任务 划分 


给 下 一 个 阶 


段 来 继续 处 理 ， 这 样 线程 与 线程 2 


间 是 


利用 CPU 的 计算 资源 ， 进 而 
"。 如 图 4 所 示 ， 本 文 图 像 重 
(RawData ) 、 校 准 (correcti 
(rebin) 、 滤 波 (filter)、 


图 图 


提高 整个 


on) 、 


反 投 影 


多 


像 


重 寻 


扇形 束 转 为 平 
和 E 建 (BPR) 、 
(img) 等 模块 。 每 个 模块 是 一 个 线程 ， 上 一 个 模块 的 计算 
放 到 循环 buffer 中 ， 下 一 个 模块 检测 到 循环 buffer 中 


名 


像 后 处 理 


数据 ， 


行 处 理 的 ， 可 以 充分 
系统 的 计算 效率 
包括 原始 数据 读 取 


/= 


人 行 


束 


二 
结果 


则 从 buffer 中 读 出 数据 进行 运算 


o 


5 是 


多 


像 重 


区 | 
次 图 


图 。 同 一 行 中 的 各 个 模块 表示 不 


司 


像 


相同 颜色 表示 同一 条 流水 线 的 不 


已 


记 为 1 淡 蓝 色 模 块 RawDatal 、 


A 
滞 
2 


filterl、BPR1、imgl 分 别 表示 


处 


建 流水 线 框 
重建 的 相同 处 理 阶 段 ， 
里 阶段 ， 如 后 缀 为 数字 标 
correctionl 、rebinl、 


一 条 流水 线 的 读 取 、 校 准 、 


扇形 束 转 为 平行 束 、 滤 波 、 反 投影 重建 、 图 像 后 处 理 等 阶段 。 
图 像 重建 
系统 
本 er | 
CRawData) | | Correction) pa (Filter) (BPR) (Img) 


; 


ae ) 


oie 


图 


4 


像 重 


建 系统 


tl 
threadl 
thread2 


thread3 
thread4 
thread5 
thread6 


YY 


图 5 图 像 重 建 流水 线 框图 

2.3 CUDA 架构 2.4 GPU 并 行 算 法 设计 
CUDA(compute unified device architecture) 是 Nvidia 通过 软件 耗 时 测试 ，rebin 〈 扇 形 束 转 平行 束 ) 、filter 
公司 推出 的 专门 应 用 于 图 像 处 理 单元 (GPU) 进行 通用 计算 的 (滤波 ) 、BPR《〈 反 投影 重建 ) 这 三 个 模块 是 整个 图 像 重 建 软 
行 编程 模型 。 简 单 地 讲 ，CUDA 是 便于 编程 人 员 利 用 Nvidia ， 件 的 耗 时 瓶颈 。 因 此 ， 本 文 将 这 三 个 模块 采用 GPU 进行 CUDA 
GPU 进行 通用 计算 的 并 行 开 发 环境 ， 目 前 支持 C/C++ 语言 。 在 行 ， 减 少 这 三 个 模块 的 耗 时 ， 进 而 提升 整个 图 像 重建 系统 软 
CUDA 编程 模型 中 ， 一 个 程序 被 分 为 host 和 device 端 。host 件 的 运算 速度 。 本 文 限 于 篇 幅 的 原因 ， 仅 介绍 最 为 核心 反 投 影 
端 是 在 CPU 上 运行 的 ，device 端 则 是 在 被 视 为 协 处 理 器 的 GPU ”重建 算法 (BRP〉GPU 并 行 设计 。 反 投影 重建 算法 的 本 质 是 对 
上 运行 "。 由 于 GPU 能 够 提供 成 百 上 千 的 计算 核心 ， 所 以 拥有 ”经 过 断层 平面 的 某 像 素 点 的 所 有 射线 投影 值 求 和 。 整 幅 图 像 的 
极 大 的 并 行 计算 能 力 。 重建 是 将 所 有 角度 下 投影 值 累加 ””。 如 下 文 反 投 影 重建 伪 代 
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码 ，2 一 6 行 计算 探测 器 上 各 个 像素 点 在 某 一 旋转 角度 下 的 投 
角度 ， 计 算 该 角度 下 
前 计算 得 到 的 相同 


影 值 ， 第 


投影 值 ， 


了 诗 
然后 累加 到 2 
重复 上 述 过 程 ， 直 至 所 有 旋转 角 


Ea 


图 像 域 是 512*512 个 像素 点 。 
views*512*512 次 乘 加 操作 。 
反 投影 重建 算法 的 伪 代 码 : 


像素 点 的 投影 值 上 


夏 松竹 ， 


7 end For 


比较 直观 的 任 


1 for each view in sonogram domain 


2 for each row in image domain 


3 foreach pixel of row 


4 


2.5 优化 方案 
a) 采 | 
分 别 位 了 


过 循环 缓存 连接 。 为 了 避免 


异步 流 


塞 和 缓存 过 大 造成 存储 资源 
同时 平衡 各 个 
避免 某 些 节 


佳 的 缓存 大 小 。 
个 节点 运算 时 间 相 当 ， 
的 瓶颈 ， 造 


其 后 节点 因 输入 循 


像 重 建 模型 


Accumulate the projection value through this pixel 
5 endFor 
6 end For 


度 的 投影 值 都 累加 完毕 
因此 每 幅 图 像 的 重建 需要 作 


首先 为 每 个 线程 开辟 


反 投影 重建 并 行 设计 方案 : 


Chin 


: 基于 GPU 异 构 平 台 的 实时 CT 图 像 重建 系统 的 研究 


jy 合 作 期 和 


务 划分 方式 是 寿 
一 个 像素 矩 


投影 域 按 view 进行 划分 ， 


E 阵 空间 ， 每 个 线程 负责 


view 像素 点 的 累加 ， 再 将 各 个 线程 像素 矩阵 按 对 应 像素 进行 


规约 求 和 。 这 种 方法 存在 

同步 操作 以 及 规约 时 的 锁 
域 进行 任务 划分 (图 6) ，1 个 网 格 Grid 是 
(Block) ， 每 个 Block 
图 像 坐 标 系 下 85 或 86 行 数 扩 
每 行 的 一 个 像素 点 的 重 
步 带 来 的 开销 ， 减 少 GPU 存 


thread0: th reads11 
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图 6 


行 。Rebin、filter、BPR 这 三 个 模块 
F 三 个 cuda 流 上 ， 可 以 实现 流 之 间 数 据 拷贝 与 内 核 
(kernel) 计算 的 重奏 。 

b) 本 文 提 出 的 流水 线 图 


的 各 个 模块 之 间 是 通 
为 缓存 过 小 造成 某 些 节 


4 


良 费 ， 本文 通过 反复 实验 来 确定 最 
节点 的 计算 量 ， 确 保 在 优化 后 各 


节点 过 慢 ， 成 为 整个 运算 流程 


用 的 节 


由 于 输出 循环 缓存 满 了 而 停滞 工作 ， 


个 流水 线 的 运算 速度 。 


c) 各 个 节点 之 间 通 过 


缓存 没有 数据 而 停滞 了 


十 缓存 连接 ， 


[ 作 ， 进 而 影响 


上 一 阶段 完成 


任务 后 将 数据 放 到 循环 缓存 
下 一 阶段 探测 到 循环 
计算 ， 如 果 探 测 循 
持续 判断 ， 造 成 CPU 资源 
起 时 间 ， 避 免 时 | 


个 任务 的 时 间 。 


在 线程 之 间 有 相关 性 ， 


需要 各 个 线程 的 


果 作 ， 耗 时 相对 较 多 。 本 文 是 在 图 像 


开辟。 


block0 


block1 


block2 


block3 


开启 6 个 线程 块 
有 512 个 线程 ， 每 个 Block 负责 
EE 建 ， 每 个 线程 负责 图 像 域 
; 优势 是 线程 间 没有 关联 性 ， 减 少 同 
储 衬 


， block4 
和 


block5 


且 ， 然 后 继续 下 一 次 的 计算 任务 。 


里 没 
的 极 大 浪费 
司 过 长 ， 造 成 本 阶段 各 


数据 后 ， 从 缓存 里 取出 数据 开始 
有 数据 ， 则 需要 挂 起 线程 ， 避 免 
《， 需 要 适当 调节 线程 的 挂 
E 务 的 工时 过 长 ， 影 响 整 


通过 实际 测试 ， 本 文 将 各 个 节点 探测 不 到 数据 


后 的 挂 起 时 间 设 置 在 200 us， 使 得 整个 运算 流程 的 耗 时 最 短 。 


d) GPU 没 
thread 必须 执行 相同 
分 支 ， 那 么 同一 时 刻 除 了 正在 执行 


了 ， 十 分 影响 性 能 。 因 此 ， 本 文通 过 


复杂 的 分 支 预测 


边界 


能 力 ， 


令 ， 如 果 warp 


除 fOr 循环 里 面 的 月 
e) 由 于 Global memory 寻 


于 判断 图 


重建 范围 的 


址 时 钟 周 


的 线程 进入 不 同 的 
的 分 支 ， 其 余 分 支 都 被 阻塞 
扩充 (padding) 去 


同一 warp 中 的 


if 判断 语句 。 


期 是 Share memory 
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的 20 一 30 倍 ， 所 以 本 文 将 Global memory 中 的 数据 先 找 贝 到 
Shared memory 中 ,然后 再 从 shared _ memory 中 取 数 据 进行 
运算 。 这 样 每 个 线程 只 需 一 次 Global memory 寻 址 ，128 次 
Shared memory 寻 址 。 

f) Device 端 初始 化 过 程 中 开辟 static memory， 和 避免 
建 过 程 中 反复 开辟 。 
g) 适当 增加 grid 中 的 线程 数目 来 提高 GPU 的 0ccupancy 
《占用 率 ) 。 流 水 线 中 的 各 个 节点 对 于 GPU 资源 是 共享 关系 ， 
同时 各 个 节点 之 间 也 是 竞争 关系 。 随 着 更 多 的 节点 将 任务 放 到 
GPU 上 运算 ，GPU 的 0ccupancy 将 有 很 大 提升 。 但 由 于 各 个 节 
点 分 属 不 同 的 CPU 线程 ， 各 个 线程 抢占 式 的 将 自己 的 任务 


电 


mn 


offload 到 GPU 上 ， 而 GPU 上 的 寄存 器 、 共 享 缓存 等 硬件 资源 
有 限 ， 必 将 导致 某 些 节点 提交 到 GPU 上 的 计算 任务 由 于 得 不 到 
硬件 资源 而 等 待 ， 同 时 引起 很 大 的 调度 开销 。 因 此 图 像 重建 速 图 7 纵隔 窗 重 建 图 像 
度 首先 会 随 着 更 多 的 计算 任务 放 到 GPU 上 而 有 所 提升 ， 同 时 


GPU 的 0ccupancy 也 会 大 幅 增 大 ， 但 到 达 某 个 临界 点 后 ， 随 着 
资源 竞争 大 增 大 图 像 重 建 速 度 不 会 再 提升 ， 反 而 有 下 降 ， 而 
GPU 的 0ccupancy 继续 增加 。 因 此 ， 本 文 不 将 0ccupancy 作为 
本 文 图 像 重建 程序 的 唯一 性 能 指标 ， 盲 目 追 求 0ccupancy 的 增 
大 。 而 是 尽量 平衡 GPU 与 CPU 的 计算 量 ， 确 保 两 者 同时 保持 较 
高 的 占有 率 ， 如 采用 openmp 加 速 CPU 端的 计算 瓶颈 。 


3 ”实验 结果 及 分 析 


测试 平台 如 表 2 所 示 。 
表 2 测试 平 


aly 


Host Device 


处 理 器 : Intel” Xeon” 芯片 厂商 NVIDIA 


CPU E5-2630 v4 @ 2.20 GHz 显卡 芯片 ”GeForce GTX 图 8 肺 窗 重 建 图 像 
0S Type: Linux 64 位 1050 Ti 
核 数 ， 物理 核 10， 逻 辑 核 20 ”显存 类 型 GDDR5 表 3 CPU 性 能 测试 结果 
显存 容量 4 096 MB 显存 位 CPU 多 线程 
宽 128 bit 流 处 模块 运算 次 数 时 间 /s 
理 单元 768 Rebin 780 36. 0774 
采用 上 述 实验 平台 进行 扫描 ， 扫 描 人 体 模型 长 度 365 mm， Filter 780 47. 1297 
重建 层 厚 5 mm， 重 建 间隔 1， 得 到 780 幅 512*512 像素 的 重建 BPR 780 327. 098 
图 像 ， 如 图 7、8 所 示 。 从 图 中 能 清楚 地 辨识 出 人 体 器 官 ， 通 总 耗 时 329s 
过 与 串 行 程序 结果 数值 相 比 ， 误 差 在 可 接受 范围 内 。 表 4 GPU 性 能 测试 结果 
CPU 性 能 测试 结果 如 表 3、4 所 示 。 CPU 多 线程 +GPU 
模块 运算 次 数 时 间 /s 
Rebin 780 18. 3326 
Filter 780 17. 3781 
BPR 780 13. 6265 
总 耗 时 20s 
由 表 中 可 以 看 出 ，CPU 多 线程 +GPU 比 仅 有 CPU 多 线程 ， 


Rebin 模块 加 速 1. 96 倍 ，filter 模块 加 速 2. 71 倍 ，BPR 加 速 
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24 倍 ， 整 个 图 像 重 建 软件 加 速 16. 45 倍 ， 加 速效 果 明 显 。 本 
文 加 速效 果 是 CPU 多 线程 +GPU 异 构 模 型 与 CPU 多 线程 流水 线 
模型 耗 时 比较 ， 而 CPU 多 线程 本 身 是 一 种 并 行 结构 ， 对 软件 有 
加 速效 果 。 如 果 图 像 重建 系统 软件 是 串 行 结构 ， 那 么 软件 整体 
耗 时 是 各 个 模块 耗 时 之 和 ， 以 本 文 测 试 为 例 ， 串 行 图 像 重建 耗 
时 应 该 大 于 Rebin+Filter+BRP 耗 时 ， 即 410. 3051 s。 因 此 
CPU 多 线程 +GPU 异 构 模 型 相对 于 串 行 模型 加 速 超过 20. 5 倍 。 
另外 需要 说 明 的 是 ， 本 文 所 得 的 加 速 比 是 在 CPU 多 线程 流水 线 
模型 已 经 做 了 较 好 的 优化 的 基础 上 比较 得 出 的 。 


4 ”结束 语 
本 文 研究 CPU 多 线程 +GPU 的 混合 异 构 CT 图 像 重 建 实现 
方法 ， 重 建 速度 有 明显 提升 。 这 种 CPU 多 线程 +GPU 异 构 软 件 


模型 能 够 同时 发 挥 CPU 和 GPU 的 计算 能 力 ， 相 对 于 集群 并 行 
重建 会 大 幅 减 少 成 本 及 功 耗 ， 而 成 本 及 功 耗 的 降低 将 在 市 场 竞 
争 中 表现 为 价格 的 优势 ， 这 种 价格 优势 必 将 最 终 惠及 广大 病 患 。 
本 文 提出 的 CPU 多 线程 流水 线 模式 +GPU 的 异 构 并 行 软件 模型 
不 依赖 于 特定 的 算法 ， 因 此 对 于 其 他 应 用 的 性 能 优化 也 有 一 定 
的 借鉴 经 验 。 另 外 ， 该 方法 也 有 和 良好 的 硬件 可 扩展 性 ， 随 着 计 
算 量 的 增加 ， 可 以 扩展 更 多 的 GPU 硬件 资源 ， 提 高 运算 速率 。 
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